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关于 台湾 大 学 林 轩 田 老师 的 《机 器 学 习 基 石 》 课 程 ， 我 们 已 经 总 结 了 16 节 课 的 笔记 。 这 里 附 上 基石 
第 一 节 课 的 博客 地 址 : 


台湾 大 学 林 轩 田 机 器 学 习 基石 课程 学 习 笔记 1 -- The Learning Problem 

本 系列 同样 分 成 16 节 课 ， 将 会 介绍 《机 器 学 习 基 石 》 的 进 阶 版 《机 器 学 习 技 法 》， 更 深入 地 探讨 机 
器 学 习 一 些 高 级 算法 和 技巧 。 

Large-Margin Separating Hyperplane 


回顾 一 下 我 们 之 前 介绍 了 linear classification ， 对 于 线性 可 分 的 情况 ， 我 们 可 以 使 用 PLA/pocket 算 
法 在 平面 或 者 超 平面 上 把 正 负 类 分 开 。 





PLA/pocket 
h(x) = sign(s) 
Xo 
Xy h(x) 
(linear separable) 
Xa 


plausible err = 0/1 
(small flipping noise) 
minimize specially 





linear (hyperplane) classifiers: 
h(x) = sign(w7 x) | 


例如 对 平面 2D 这 种 情况 ， 我 们 可 以 找到 一 条 直线 ， 能 将 正 类 和 负 类 完全 分 开 。 但 是 ， 这 样 的 直线 
通常 不 止 一 条 ， 如 下 图 所 示 。 那 么 ， 下 图 中 的 三 条 分 类 线 都 能 将 数据 分 开 ， 但 是 哪 条 线 更 好 呢 ? 











这 三 条 直线 都 是 由 PLA/pocket 算 法 不 断 修正 错误 点 而 最 终 产 生 的 ， 整 个 确定 直线 形状 的 过 程 是 随机 
的 。 单 从 分 类 效果 上 看 ， 这 三 条 直线 都 满足 要 求 ， 而 且 都 满足 VC bound 要 求 ， 模 型 复杂 度 人 (万 ) 
是 一 样 的 ， 即 具有 一 定 的 泛 化 能 力 。 但 是 ， 如 果 要 选择 的 话 ， 任 第 一 感觉 ， 我 们 还 是 会 选择 第 三 条 
直线 ， 感 觉 它 的 分 类 效果 更 好 一 些 。 那 这 又 是 为 什么 呢 ? 


先 给 个 简单 解释 ， 一 般 情况 下 ， 训 练 样本 外 的 测量 数据 应 该 分 布 在 训练 样本 附近 ， 但 与 训练 样本 的 
位 置 有 一 些 偏差 。 若 要 保证 对 未 知 的 测量 数据 也 能 进行 正确 分 类 ， 最 好 让 分 类 直线 距离 正 类 负 类 的 
点 都 有 一 定 的 距离 。 这 样 能 让 每 个 样本 点 附近 的 圆 形 区 域 是 "安全 "的 。 圆 形 区 域 越 大， 表示 分 类 直 
线 对 测量 数据 误差 的 容忍 性 越 高 ， 越 安全 `. 








如 上 图 所 示 ， 左 边 的 点 距离 分 类 直线 的 最 小 距离 很 小 ， 它 的 圆 形 区 域 很 小 。 那 么 ， 这 种 情况 下 ， 分 
类 线 对 测量 数据 误差 的 容忍 性 就 很 差 ， 测 量 数据 与 样本 数据 稍 有 偏差 ， 很 有 可 能 就 被 误 分 。 而 右边 
的 点 距离 分 类 直线 的 最 小 距离 更 大 一 些 ， 其 圆 形 区 域 也 比较 大 。 这 种 情况 下 ， 分 类 线 对 测量 数据 误 
差 的 容忍 性 就 相对 来 说 大 很 多 ， 不 容易 误 分 。 也 就 是 说 ， 左 边 分 类 线 和 右边 分 类 线 的 最 大 区 别 是 对 
这 类 测量 误差 的 容忍 度 不 同 。 


那么 ， 如 果 每 一 笔 训练 资料 距离 分 类 线 越 远 的 话 ， 就 表示 分 类 型 可 以 忍受 更 多 的 测量 误差 

(noise) 。 我 们 之 前 在 《机 器 学 习 基 石 》 中 介绍 过 ，noise 是 造成 overfitting 的 主要 原因 ， 而 测量 误 
差 也 是 一 种 noise。 所 以 ， 如 果 分 类 线 对 测量 误差 的 容忍 性 越 好 的 话 ， 表 示 这 是 一 条 不 错 的 分 类 
线 。 那 么 ,我们 的 目标 就 是 找到 这 样 一 条 最 “健壮 "的 线 ， 即 距离 数据 点 越 远 越 好 。 










informal argument 


if (Gaussian-like) noise on future x 2 Xn: 

Xn further from hyperplane distance to closest xn 
< tolerate more noise < amount of noise tolerance 
< more robust to overfitting <> robustness of hyperplane 


rightmost one: more robust 
because of larger distance to closest xn | 
上 面 我 们 用 圆 形 区 域 表 示 分 类 线 能 够 容忍 多 少 误差 ， 也 就 相当 于 计算 点 到 直线 的 距离 。 距 离 越 大 ， 


表示 直线 越 " 胖 "， 越 能 容忍 误差 ;距离 越 小 ， 表 示 直 线 越 " 瘦 "， 越 不 能 容忍 误差 。 越 胖 越 好 ( 像 杨 
贵妃 那样 的 哦 ~) 。 











如 何 定义 分 类 线 有 多 胖 ， 就 是 看 距离 分 类 线 最 近 的 点 与 分 类 线 的 距离 ， 我 们 把 它 用 margin 表 示 。 分 
类 线 由 权重 w 决 定 ， 目 的 就 是 找到 使 margin 最 大 时 对 应 的 w 值 。 整 体 来 说 ， 我 们 的 目标 就 是 找到 这 
样 的 分 类 线 并 满足 下 列 条 件 : 


。 分 类 正确 ,， 即 ynw7 zx, > 0 
。 margin 最 大 化 


max margin(w) 


subjectto every yw’'xn>0 


Pr 


Standard Large-Margin Problem 


要 让 margin 最 大 ， 即 让 离 分 类 线 最 近 的 点 到 分 类 线 距离 最 大 ， 我 们 先 来 看 一 下 如 何 计算 点 到 分 类 线 
的 距离 。 


首先 ,我 们 将 权重 w(two, w1 ,*…… , wa ) 中 的 wo 拿 出 来 ， 用 b 表 示 。 同 时 省 去 Xo 项。 这 样 ， 


hypothesis 就 变 成 了 h(x) = sigm(w7z + b).。 


Shorten x and W 


distance needs wo and (Wi,..., wa) differently (to be derived) 
b = Wo 而 一 二 
| Wi 日 | X1 
3 
w 二 X 二 
| Wa | Xa 





下 面 ， 利 用 图 解 的 方式 ， 详 细 推 导 如 何 计算 点 到 分 类 平面 的 距离 : 


want: distance(x, b, w), with hyperplane w7x' +b=0 | 


consider x', x” on hyperplane 
Ow'x=—b,w'x=—b 
@ w | hyperplane: 


wr (EW Eh x') 人 
一 一 





vector on hyperplane 


@ distance = project (X 一 X )to 1 hyperplane 





distance(x, bw) = | [wl 一 一 (X 一 








如 上 图 所 示 ， 平 面 上 有 两 个 点 : x 和 x"。 因 为 这 两 个 点 都 在 分 类 平面 上 ， 所 以 它们 都 满足 : 
1z' 十 =0 
wz 十 一 0 
同时 可 以 得 到 : w7 z' = 一 0b,，w?7 z/ = 一 2， 则 有 : 


(x"-x") 是 平面 上 的 任 一 向 量 ，(x"-x") 与 w 内 积 为 0， 表 示 (x"-x) 垂 直 于 w， 那 么 w 就 是 平面 的 法 向 量 。 


现在 ， 若 要 计算 平面 外 一 点 x 到 该 平面 的 距离 ， 做 法 是 只 要 将 向 量 (x-x") 投 影 到 垂直 于 该 平面 的 方向 
( 即 w 方 向 ) 上 就 可 以 了 。 那 么 ， 令 (x"-x') 与 w 的 夹 角 为 9， 距 离 就 可 以 表示 为 : 


. (zZ — 2 )w 1 
distance(zx,b,w) = |(x — x’)cos(0)| = |||z — x"||: a a = Tl — wy 
代入 wz' 二 一 b,， 可 得 : 

1 
distance(z,b,w) = ——|w z+o 
lwl 
点 到 分 类 面 (Separating Hyperplane) 的 距离 已 经 算出 来 了 。 基 于 这 个 分 类 面 ， 所 有 的 点 均 满足 : 


名 (wz zn 十 0) > 0， 表 示 所 有 点 都 分 类 正确 ， 则 distance 公 式 就 可 以 变换 成 : 


. 
distance(z, b, w) = ol mr 十 尼 ) 


那么 ， 我 们 的 目标 形式 就 转换 为 : 


max margin(b,w) 
b,w 
subjectto every yn(w’'xn+b)=>0 


对 上 面 的 式 子 还 不 容易 求解 ， 我 们 继续 对 它 进行 简化 。 我 们 知道 分 类 面 w7 x 十 二 0 和 

3w7 7 十 3b 二 0 其 实 是 一 样 的 。 也 就 是 说 ， 对 w 和 b 进 行 同样 的 缩放 还 会 得 到 同一 分 类 面 。 所 以 ， 
为 了 简化 计算 ,我 们 令 距离 分 类 满 最 近 的 点 满足 y, (wz 十 5) 二 1。 那 我 们 所 要 求 的 margin 就 
变 成 了 : 

- 


margin(b, w) = pal 


这 样 ， 目 标 形式 就 简化 为 : 


1 
‘ow 本 
Subject to 


min yn(W’'xn+b)=1 
hel sy 


这 里 可 以 省 略 条 件 : yn (wz xn 十 8) > 0， 因 为 满足 条 件 y, (wz z 十 5) = 二 1 必然 满足 大 于 零 的 
条 件 。 我 们 的 目标 就 是 根据 这 个 条 件 ， 计 算 一 的 最 大 值 。 


ful 
刚刚 我 们 讲 的 距离 分 类 满 最 近 的 点 满足 yn (wz7z 十 0) 二 1， 也 就 是 说 对 所 有 的 点 满足 

yn (w” zn 十 b) > 1。 另 外 ， 因 为 最 小 化 问题 我 们 最 熟悉 也 最 好 解 ， 所 以 可 以 把 目标 二 最 大 化 
转化 为 计算 了 w7w 的 最 小 化 问题 


necessary constraints: yn(W’'Xxn + b)> 1foralln 







original constraint: minnc1 nN yn(W'Xn+b)=1 
want: optimal (b, w) here (inside) 





if optimal (b, w) outside, e.g. yn(W’'Xxn+b)> 1.126 foralln 
—can scale (b, w) to “more optimal” (oss, TS5) (contradiction!) 


final change: max —> min, remove V , add 3 


T 


min 3w 
b,w 


subjectto yn(W’'xn+b)>1foralln 





如 上 图 所 示 ， 最 终 的 条 件 就 是 yn (wz zn, 十 8) 之 1， 而 我 们 的 目标 就 是 最 小 化 ww 值 。 


Support Vector Machine 


现在 条件 和 目标 变 成 : 


min iw’'w 
b,w 


subjectto yn(W xn+b)>1foralln 





现在 ， 举 个 例子 ,假如 平面 上 有 四 个 点 ， 两 个 正 类 ， 两 个 负 类 : 





不 同 点 的 坐标 加 上 条 件 yn (wz zn 十 0) > 1， 可 以 得 到 |: 









0 0 一 1 —b>1 (7 
x_|2 2 一 1 —2w1 一 2w2 一 b 二 1 (让 
2 0 A 2Wi1 +b 二 1 (i 
3 0 十 1 3W1 +b>1 (iv) 


,有 (前 一 wm2>+1 
(位 & (前 一 w< 一 1 
e。 (Ww =1,w=—1,b=—1)atlower bound and satisfies (7) — (iv) 


} = Jww21 


最 终 ， 我 们 得 到 的 条 件 是 : 


而 我 们 的 目标 是 : 


1 1 
min ~w w= (w+w)>1 
2 2 
目标 最 小 值 为 {f， 即 w1 二 1，w2 二 一 1, 了 二 一 1， 那 么 这 个 例子 就 得 到 了 最 佳 分 类 面 的 解 ， 如 图 


所 示 ， 且 margimz(b 由) = 下 加 本 分 类 面 的 表达 式 为 : 


2Z1 一 22 一 1 一 0 
最 终 我 们 得 到 的 矩 的 表达 式 为 : 
gsvM(zZ) = sign(x1 — x2 — 1) 
Support Vector Machine(SVM) 这 个 名 字 从 何 而 来 ? 为 什么 把 这 种 分 类 面 解法 称 为 支持 向 量 机 呢 ? 
这 是 因为 分 类 面 仪 仪 由 分 类 面 的 两 边 距离 它 最 近 的 几 个 点 决定 的 ， 其 它 点 对 分 类 面 没 有 影响 。 决 定 
分 类 面 的 几 个 点 称 之 为 支持 向 量 (Support Vector) ， 好 比 这 些 点 “支撑 "着 分 类 面 。 而 利用 Support 
Vector 得 到 最 佳 分 类 面 的 方法 ， 称 之 为 支持 向 量 机 (Support Vector Machine) 。 


下 面 介绍 SVM 的 一 般 求 解 方法 。 先 写 下 我 们 的 条 件 和 目标 : 


min BW W 
b.w 


subjectto yn(W’ xn+b)>1foralln 


这 是 一 个 典型 的 二 次 规划 问题 ， 即 Quadratic Programming (QP) 。 因 为 SVM 的 目标 是 关于 w 的 二 
次 国 数 ， 条 件 是 关于 w 和 b 的 一 次 函数 ， 所 以 ， 它 的 求解 过 程 还 是 比较 容易 的 ， 可 以 使 用 一 些 软件 

(例如 Matlab) 自 带 的 二 次 规划 的 库 函 数 来 求解 。 下 图 给 出 SVM 与 标准 二 次 规划 问题 的 参数 对 应 关 
系 : 


optimal (b,w) = ? optimal u 和 二 QP(Q, p, A,c) 
中 天 ; 1 T 
mn 5W W min zuU QUu+pu 
subjectto yn(w’'xn+b)>1,| subjectto arnu> cm, 
0 Bl re | KA n= 








0 
lg 
constralnts: "ar =mn[1 x l= TM=N 


CR 二 | 0 RN 
objective function: U 三 | | “= 0, 


|:p=0a 





那么 ， 线 性 SVM 算法 可 以 总 结 为 三 步 : 


。 计算 对 应 的 二 次 规划 参数 Q，p，A，<c 
。 根据 二 次 规划 库 函 数 ， 计 算 b，w 
。 将 bp 和 w 代 入 9gsvM ， 得 到 最 佳 分 类 面 





Linear Hard-Margin SVM Algorithm 


_[0 0 
oo=-|o 


b 
W 





:p=00a7 =% 1 x ];0=1 
e| 


@ return b & w as gsvw 


| QP(Q,p, A,c) 





这 种 方法 称 为 Linear Hard-Margin SVM Algorithm。 如 果 是 非 线性 的 ， 例 如 包含 x 的 高 阶 项 ， 那 么 可 
以 使 用 我 们 之 前 在 《机 器 学 习 基 石 》 课 程 中 介绍 的 特征 转换 的 方法 ， 先 作 z, 二 再 (Zn ) 的 特征 变 
换 ， 从 非 线性 的 x 域 映射 到 线性 的 z 域 空间 ， 再 利用 Linear Hard-Margin SVM Algorithm 求 解 即 可 。 


Reasons behind Large-Margin Hyperplane 


从 视觉 和 直觉 的 角度 ， 我 们 认为 Large-Margin Hyperplane 的 分 类 效果 更 好 。SVM 的 这 种 思想 其 实 

与 我 们 之 前 介绍 的 机 器 学 习 非 常 重要 的 正则 化 regularization 思 想 很 类 似 。regularization 的 目标 是 将 
i 最 小 化 ， 条 件 是 w 7w < C; SVM 的 目标 是 wz w 最 小 化 ， 条 件 是 yn, (wz zn 十 0) > 1， 即 保 

证 了 五” 二 0。 有 趣 的 是 ，regularization 与 SVM 的 目标 和 限制 条 件 分 别 对 调 了 。 其 实 ， 考 虑 的 内 容 
是 类 似 的 ， 效 果 也 是 相近 的 。 SVM 也 可 以 说 是 一 种 weight-decay regularization， 限 制 条 件 是 

Ein 三 0。 







constraint 
ww<C 
n = 0 [and more] 


minimize 





regularization 
SVM 





j= 


从 另 一 方面 来 看 ，Large-Margin 会 限制 Dichotomies 的 个 数 。 这 从 视觉 上 也 很 好 理解 ， 假 如 一 条 分 
类 面 越 " 胖 "， 即 对 应 Large-Margin， 那 么 它 可 能 shtter 的 点 的 个 数 就 可 能 越 少 : 





Ao: like PLA 一 shatter ‘general’ 3 inputs 


A1.126: more strict than SVM 一 > cannot shatter any 3 inputs 


之 前 的 《机 器 学 习 基石 》 课 程 中 介绍 过 ，Dichotomies 与 VC Dimension 是 紧密 联系 的 。 也 就 是 说 如 
果 Dichotomies 越 少 ， 那 么 复杂 度 就 越 低 ， 即 有 效 的 VC Dimension 就 越 小 ， 得 到 Bo 完 Bin,， 泛 
化 能 力 强 。 


下 面 我 们 从 概念 的 角度 推导 一 下 为 什么 dichotomies 越 少 ，VC Dimension 就 越 少 。 首 先 我 们 考虑 一 
下 Large-Margin 演 算法 的 VC Dimension， 记 为 dv (Ap)。dwc( 4) 与 数据 有 关 ， 而 我 们 之 前 介绍 的 
dvc 与 数据 无 关 。 


假如 平面 上 有 3 个 点 分 布 在 单位 圆 上 ， 如 果 Margin 为 0， 即 p 二 0， 这 条 细 细 的 直线 可 以 很 容易 将 圆 








上 任意 三 点 分 开 (shatter) ， 就 能 得 到 它 的 dj。 = 3。 如 果 p > 3 这 条 粗 粗 的 线 无 论 如 何 都 不 
能 将 圆 上 的 任 一 三 点 全 完 分 开 (no shatter) ， 因 为 圆 上 必然 至 少 存在 两 个 点 的 距离 小 于 V3， 那 么 


其 对 应 d 的 dy。 < 3。 


oy when 半 = unit circle in 及 







e p= 0: just perceptrons (avc = 3) 


。p> we cannot shatter any 3 inputs 
(avc < 3) 
一 some inputs must be of distance < v3 


那么 ， 一 般 地 ， 在 d 维 空间 ， 当 数据 点 分 布 在 半径 为 R 的 超 球体 内 时 ， 得 到 的 du ( Aj ) 满 足下 列 不 等 
式 : 


generally when ~ in radius-R hyperball: 


Qc(A,) < min (三 中 +1< d+1 


hc (perceptrons) 


之 前 介绍 的 Perceptrons 的 VC Dimension 为 d+1， 这 里 得 到 的 结果 是 Large-Margin 演 算法 的 
dvce(Ap) < d 十 1。 所 以 ， 由 于 Large-Margin， 得 到 的 dichotomies 个 数 减 少 ， 从 而 VC Dimension 
也 减少 了 。VC Dimension 减 少 降低 了 模型 复杂 度 ， 提 高 了 泛 化 能 力 。 

[千村 


‘= 


本 节 课 主要 介绍 了 线性 支持 向 量 机 (Linear Support Vector Machine) 。 我 们 先 从 视觉 角度 出 发 ， 
希望 得 到 一 个 比较 “ 胖 " 的 分 类 面 ， 即 满足 所 有 的 点 距离 分 类 面 都 尽 可 能 远 。 然 后 ， 我 们 通过 一 步 步 
推导 和 | 简化， 最终 把 这 个 问题 转换 为 标准 的 二 次 规划 (QP) 问题 。 二 次 规划 问题 可 以 使 用 Matlab 
等 软件 来 进行 求解 ， 得 到 我 们 要 求 的 w 和 b， 确 定 分 类 面 。 这 种 方法 背后 的 原理 其 实 就 是 减少 了 
dichotomies 的 种 类 ， 减 少 了 有 效 的 VC Dimension 数 量 ， 从 而 让 机 器 学 习 的 模型 具有 更 好 的 泛 化 能 
力 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 


